Spark shuffle和mapreduce shuffle的区别

您所在的位置：网站首页 › spark shuffle和mr shuffle › Spark shuffle和mapreduce shuffle的区别

Spark shuffle和mapreduce shuffle的区别

#Spark shuffle和mapreduce shuffle的区别| 来源: 网络整理| 查看: 265

1.从整体功能上看，两者并没有大的差别。都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTask）。Reducer 以内存作缓冲区，边 shuffle 边 aggregate 数据，等到数据 aggregate 好以后进行 reduce() （Spark 里可能是后续的一系列操作）。 2.从流程的上看，两者差别不小。 MapReduce是sort-based，进入combine()和reduce()的records必须先sort。这样的好处在于combine/reduce()可以处理大规模的数据，因为其输入数据可以通过外排得到（mapper对每段数据先做排序，reducer 的 shuffle 对排好序的每段数据做归并）。以前Spark默认选择的是hash-based，通常使用HashMap来对shuffle来的数据进行aggregate，不会对数据进行提前排序。如果用户需要经过排序的数据，那么需要自己调用类似sortByKey()的操作；如果你是Spark 1.1的用户，可以将spark.shuffle.manager设置为sort，则会对数据进行排序。在Spark 1.2中，sort将作为默认的Shuffle实现。 3.从流程实现角度来看，两者有不少差别。 MapReduce将处理流程划分出明显的几个阶段：map()、spill、merge、shuffle、sort、reduce()等。每个阶段各司其职，可以按照过程式的编程思想来逐一实现每个阶段的功能。 Spark中，没有这样功能明确的阶段，只有不同的stage和一系列的transformation()，所以spill、merge、aggregate等操作需要蕴含在transformation()中。

【本文地址】

Spark shuffle和mapreduce shuffle的区别

Spark shuffle和mapreduce shuffle的区别

今日新闻

推荐新闻